我们研究可以从有限,凸面和良好的控制空间中生成任意自然语言文本(例如所有英语句子)的模型。我们称它们为通用Vec2Text模型。这样的模型将允许在矢量空间中做出语义决策(例如,通过强化学习),而自然语言产生由VEC2Text模型处理。我们提出了四个所需的特性:这种VEC2Text模型应具有的普遍性,多样性,流利性和语义结构,我们提供了定量和定性的方法来评估它们。我们通过将瓶颈添加到250m参数变压器模型中来实现VEC2Text模型,并通过从大型Web语料库中提取的400m句子(10B代币)对其进行自动编码目标进行训练。我们提出了一种基于往返翻译的简单数据增强技术,并在广泛的实验中表明,所得的VEC2Text模型令人惊讶地导致矢量空间,从而满足我们的四个所需属性,并且该模型强烈超过了标准和denoso自动编码器的表现。
translated by 谷歌翻译
已经引入了平均野外游戏(MFG),以有效地近似战略代理人。最近,MFG中学习平衡的问题已经获得了动力,尤其是使用无模型增强学习(RL)方法。使用RL进一步扩展的一个限制因素是,解决MFG的现有算法需要混合近似数量的策略或$ Q $价值。在非线性函数近似的情况下,这远非微不足道的属性,例如,例如神经网络。我们建议解决这一缺点的两种方法。第一个从历史数据蒸馏到神经网络的混合策略,将其应用于虚拟游戏算法。第二种是基于正规化的在线混合方法,不需要记忆历史数据或以前的估计。它用于扩展在线镜下降。我们从数值上证明,这些方法有效地可以使用深RL算法来求解各种MFG。此外,我们表明这些方法的表现优于文献中的SOTA基准。
translated by 谷歌翻译
我们介绍RLDS(强化学习数据集),一个生态系统,用于在连续决策(SDM)的上下文中记录,重播,操纵,注释和共享数据,包括加强学习(RL),从演示,离线RL或I模仿学习学习。 RLDS不仅能够再现现有的研究和轻松生成新数据集,而且还加速了新的研究。通过提供标准和无损的数据集格式,它可以在更广泛的任务中快速测试新的算法。 RLDS生态系统使数据集很容易在没有任何信息丢失的情况下共享数据集,并且在将各种数据处理管道应用于大集的数据集时,在底层原始格式不可知。此外,RLD提供了用于收集由合成代理或人类生成的数据的工具,以及检查和操纵收集的数据。最终,与TFD的集成有助于与研究界共享RL数据集。
translated by 谷歌翻译
深度强化学习(RL)导致了许多最近和开创性的进步。但是,这些进步通常以培训的基础体系结构的规模增加以及用于训练它们的RL算法的复杂性提高,而均以增加规模的成本。这些增长反过来又使研究人员更难迅速原型新想法或复制已发表的RL算法。为了解决这些问题,这项工作描述了ACME,这是一个用于构建新型RL算法的框架,这些框架是专门设计的,用于启用使用简单的模块化组件构建的代理,这些组件可以在各种执行范围内使用。尽管ACME的主要目标是为算法开发提供一个框架,但第二个目标是提供重要或最先进算法的简单参考实现。这些实现既是对我们的设计决策的验证,也是对RL研究中可重复性的重要贡献。在这项工作中,我们描述了ACME内部做出的主要设计决策,并提供了有关如何使用其组件来实施各种算法的进一步详细信息。我们的实验为许多常见和最先进的算法提供了基准,并显示了如何为更大且更复杂的环境扩展这些算法。这突出了ACME的主要优点之一,即它可用于实现大型,分布式的RL算法,这些算法可以以较大的尺度运行,同时仍保持该实现的固有可读性。这项工作提出了第二篇文章的版本,恰好与模块化的增加相吻合,对离线,模仿和从演示算法学习以及作为ACME的一部分实现的各种新代理。
translated by 谷歌翻译
Long-term non-prehensile planar manipulation is a challenging task for robot planning and feedback control. It is characterized by underactuation, hybrid control, and contact uncertainty. One main difficulty is to determine contact points and directions, which involves joint logic and geometrical reasoning in the modes of the dynamics model. To tackle this issue, we propose a demonstration-guided hierarchical optimization framework to achieve offline task and motion planning (TAMP). Our work extends the formulation of the dynamics model of the pusher-slider system to include separation mode with face switching cases, and solves a warm-started TAMP problem by exploiting human demonstrations. We show that our approach can cope well with the local minima problems currently present in the state-of-the-art solvers and determine a valid solution to the task. We validate our results in simulation and demonstrate its applicability on a pusher-slider system with real Franka Emika robot in the presence of external disturbances.
translated by 谷歌翻译
从示范中学习(LFD)提供了一种方便的手段,可以在机器人固有坐标中获得示范时为机器人提供灵巧的技能。但是,长期和复杂技能中复杂错误的问题减少了其广泛的部署。由于大多数此类复杂的技能由组合的较小运动组成,因此将目标技能作为一系列紧凑的运动原语似乎是合理的。在这里,需要解决的问题是确保电动机以允许成功执行后续原始的状态结束。在这项研究中,我们通过提议学习明确的校正政策来关注这个问题,当时未达到原始人之间的预期过渡状态。校正策略本身是通过使用最先进的运动原始学习结构,条件神经运动原语(CNMP)来学习的。然后,学识渊博的校正政策能够以背景方式产生各种运动轨迹。拟议系统比学习完整任务的优点在模拟中显示了一个台式设置,其中必须以两个步骤将对象通过走廊推动。然后,通过为上身类人生物机器人配备具有在3D空间中的条上打结的技巧,显示了所提出的方法在现实世界中进行双重打结的适用性。实验表明,即使面对校正案例不属于人类示范集的一部分,机器人也可以执行成功的打结。
translated by 谷歌翻译
近年来,机器人技术的最佳控制越来越流行,并且已应用于许多涉及复杂动力系统的应用中。闭环最佳控制策略包括模型预测控制(MPC)和通过ILQR优化的时变线性控制器。但是,此类反馈控制器依赖于当前状态的信息,从而限制了机器人需要记住其在采取行动和相应计划的机器人应用程序范围。最近提出的系统级合成(SLS)框架通过带有内存的较富裕控制器结构来规避此限制。在这项工作中,我们建议通过将SLS扩展到跟踪涉及非线性系统和非二次成本功能的问题,以最佳设计具有记忆力的反应性预期机器人技能。我们以两种情况来展示我们的方法,这些方案利用任务精确度和对象在模拟和真实环境中使用7轴的Franka Emika机器人提供的挑选和位置任务。
translated by 谷歌翻译
工业机器人的机器人编程方法是耗时的,并且通常需要运营商在机器人和编程中具有知识。为了降低与重新编程相关的成本,最近已经提出了使用增强现实的各种接口,为用户提供更直观的手段,可以实时控制机器人并在不必编码的情况下编程它们。但是,大多数解决方案都要求操作员接近真正的机器人的工作空间,这意味着由于安全危险而从生产线上移除它或关闭整个生产线。我们提出了一种新颖的增强现实界面,提供了用户能够建模工作空间的虚拟表示,该工作空间可以被保存和重复使用,以便编程新任务或调整旧任务,而无需与真正的机器人共同定位。与以前的接口类似,操作员随后可以通过操纵虚拟机器人来实时地控制机器人任务或控制机器人。我们评估所提出的界面与用户学习的直观和可用性,其中18名参与者为拆卸任务编写了一个机器人操纵器。
translated by 谷歌翻译